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摘要 : 【 目的 】 利 用 互动 问答 社区 一 一 百度 知道 的 知识 共享 、 更 新 及 时 的 优势 ， 弥补 维护 大 规模 地 理 隶 属 
关系 资源 库 开 销 大 的 不 足 , 并 通过 百度 知道 自动 补 全 缺陷 地 理 位 置 实 体 。[ 方法 ] 对 缺陷 地 理 位 置 实体 转 
化 为 所 属 区 域 问题 ， 并 通过 百度 知道 进行 检索 ; 根据 检索 结果 提取 特征 , 计算 该 地 理 位 置 实体 属于 各 个 区 域 
的 得 分 , 并 构建 缺陷 地 理 位 置 实体 的 所 属 区 域 特征 向 量 ; 利用 规则 对 缺陷 地 理 位 置 实体 进行 完整 化 处 理 ， 实 
现 地 理 位 置 实体 完整 性 表示 。[ 结果 】 在 完整 化 微 博 城市 投诉 文本 中 的 缺陷 地 理 位 置 实体 时 ， 该 方法 的 综合 精 
确 率 达 到 92.51%。[ 局 限 】 对 零 地 理 位 置 实体 无 法 完整 表示 。[ 结论 】 该 方法 对 缺陷 地 理 位 置 实体 完整 化 是 有 


效 的 、 可 行 的 。 
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近 儿 年 ， 随 着 “ 微 博 问 政 ” 的 兴起 , 越 来 越 多 的 政府 
部 门 开 设 官方 微 博 与 百姓 互动 ,对 于 微 博 城市 投诉 信息 
来 说 , 由 于 每 天 收 到 的 投诉 微 博 数量 巨大 , 地 理 位 置 实 
体 有 时 会 缺少 区 域 信 息 。 一 条 完整 的 地 理 位 置 实体 应 包 
括 地 名 区 域 和 地 名 两 部 分 , 如 表 1 中 的 微 博 1。 而 从 表 
1 中 微 博 2- 微 博 6 可 以 看 出 , 地 理 位 置 实体 存在 如 下 现 
象 : 地 名 区 域 缺 失 , 如 微 博 2 的 “中 关 村 ” 地 名 区 域 模 
糊 ， 如 微 博 3 的 “长 安 街 ”。 由 于 地 名 区 域 缺失 或 模糊 现 
象 的 存在 , 给 工作 人 员 的 统计 分 析 工 作 带 来 了 极 大 的 
困难 ， 以 致 于 工作 人 员 很 难 统计 各 个 区 域 的 事故 发 生 


量 ， 从 而 不 能 及 时 预防 事故 的 发 生 。 本 文 将 存在 上 述 两 
种 情况 的 地 理 位 置 实体 统称 为 缺陷 地 理 位 置 实体 ,， 记 
为 defectLoc。 而 且 ， 随 着 时 间 的 推移 , 地 名 及 区 域 信息 
也 随 之 变化 ,使 得 分 析 地 名 从 属 区 域 变 得 更 加 困难 ， 如 
微 博 3 的 “崇文 门 新 景 家 园 ”" 原 属于 崇文 区 ， 而 现在 属于 
东城 区 ,如 何 及 时 发 现 地 名 所 属 区 域 信息 的 变化 显得 
尤为 重要 。 对 地 理 位 置 实体 进行 完整 性 表示 , 添加 缺失 
的 区 域 信息 ， 如 将 “中 关 村 ”规范 化 为 “海淀 区 中 关 村 ”， 
或 确定 化 模糊 区 域 , 如 将 “长 安 街 "规范 化 为 “东城 区 长 
安 街 ? 或 “西城 区 长 安 街 ” 可 以 方便 城市 管理 人 员 进 行 
统计 与 分 析 , 进一步 发 现 地 区 存在 的 问题 , 实现 预警 功 
能 , 对 以 后 的 工作 提供 决策 支持 。 
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表 1 城市 管理 投诉 文本 中 地 理 位 置 实体 示例 (北京 ) 


微 博 


编号 微 博 原始 内 容 


< 
遇 拆 朝阳 区 豆 各 庄 乡 富力 又 一 城 天 天 晓 上 能 闻 到 类 似 林 烧 垃 圾 等 的 毒气 。 今 天 更 令 人 
气 情 的 是 垃 极 箱 直接 在 我 们 桩 下 明目张胆 地 烧 了 。 请 问 


A Y iá 
O # 城 管 领 导 听 民 意 # @ 北 京 12345 SFA , -NERE ， 一 个 停 在 我 身 
后 ， 从 第 三 张 照 片 可 以 看 到 树 后 面 的 城管 车 ~ 城管 真 的 管 么 ? ! 


he 
aE 


@ FVIFSS RANE. BENE RAR mRNT. Busse 
WN ? )RBBRSERETS , SOSH RRS Bans , BSF 
TER, EAEN 


v 


害 深 刻 ,物业 各 种 不 作为 ， 环 境 脏 乱 差 。 提 请 有 关 部 门 注 


3 国贸 
4 
5 
—_>* a 
6 7 我 去 走 到 中 国 言 志 学 院 这 被 一 辆 飞驰 的 车 掀起 的 尘土 笼 辕 了 ， 这 个 工地 有 人 管 吗 ? @ 
北京 12345 
= 
2 相关 研究 


目前 , 国内 关于 地 名 的 研究 多 集中 在 识别 基本 地 
名 与 长 度 较 长 的 复杂 地 名 上 。 蔡 华 利 等 中 抽取 新 闻 语 
料 中 包括 省 、 地、 县 、 乡 、 村 5 级 行政 地 理 命名 实体 。 
李 丽 双 等 所 提取 人 民 日 报 语 料 中 带 有 特征 词 (如 省 、 市 
等 ) 的 地 名 。 唐 旭日 等 呈 采 用 层 受 条 件 随 机 场 对 人 民 日 
报 语 料 中 的 中 文 地 名 进行 研究 , 并 通过 静态 地 理 关 系 
和 动态 地 理 关系 ,建立 行政 区 划 隶 属 关系 。 杜 薄 等 外 
对 新 闻 网 页 语 料 中 的 中 文 地 名 进行 识别 研究 。 还 有 其 
他 学 者 也 对 规范 语 料 中 简单 中 文 地 名 进行 识别 研 
FE RROA FER A i A TP FE Si CH 
点 实体 进行 识别 。 以 上 研究 均 是 在 规范 语 料 上 进行 的 
基本 地 名 识别 , 所 研究 的 语 料 来 自 于 新 闻 报道 者 , 格 
式 规范 , 表达 统一 ， 且 其 中 的 中 文 地 名 特征 明显 , 易 
识别 ,如 叶 E 京 市 “山西 省 ”等 ,而 对 于 格式 不 规范 ， 
表达 不 统一 的 复杂 地 理 位 置 实体 识别 效果 较 差 。 文 
献 [11] 采 用 分 治 的 思想 将 地 名 识别 问题 转化 为 基本 地 
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名 识别 和 指示 词 识 别 , 在 此 基础 上 , 利用 词 连接 算法 
连接 基本 地 名 和 指示 词 , 最 终 准确 识别 出 长 度 较 长 的 
复杂 地 理 位 置 实体 。 

以 上 研究 均 集 中 在 地 名 与 地 理 位 置 实体 的 识别 
上 , 对 于 地 理 位 置 实体 的 完整 性 研究 较 少 。 针 对 缺失 
的 区 域 信息 的 问题 , 相关 研究 多 通过 构建 地 理 本 体 和 
地 理 知 识 库 解决 。Egenhofer! "提出 地 理 空间 语义 网 络 
概念 。 杜 萍 中 将 地 理 本 体 与 中 文 地 名 识别 与 抽取 有 机 
结合 ,主要 研究 消除 地 名 歧义 。 地 理 知识 库 包 括 地 名 
库 和 地 名 词典 ， 如 在 地 名 库 GNIS 5 中 共有 65 个 地 
理 类 别 , 是 一 个 无 结构 的 术语 表 ,， 且 无 任何 语义 关系 。 
在 地 名 词典 TGN Sh, 利用 整体 /部 分 关系 ,地理 实 
体 之 间 形 成 层次 化 的 结构 ,同时 还 定义 了 地 理 实体 之 
间 的 关联 关系 。 但 构建 地 理 本体 和 地 理 知 识 库 需要 领 
域 专家 的 参与 , 并且 对 已 构建 的 地 理 本 体 和 地 理 知 识 
库 进 行 一 致 性 、 完 整 性 维护 。 而 维护 如 此 庞大 的 地 理 
本 体 和 地 理 知 识 库 需 要 耗费 较 大 的 人 力 , 并 且 无 法 及 
时 对 数据 进行 更 新 , 尤其 是 在 隶属 关系 发 生变 化 时 ， 
通常 需要 对 较 多 的 节点 进行 修改 , 不 易 做 到 实时 性 。 
由 于 互动 问答 社区 平台 作为 一 个 知识 分 享 的 资源 库 ， 
每 天 都 会 有 问题 、 答 案 的 增添 与 更 新 , 这 对 于 及 时 发 
现 地 理 位 置 隶 属 关 系 的 变化 提供 了 较 大 的 支持 。 因 此 ， 
本 文 提出 基于 互动 问答 社区 一 一 百度 知道 的 地 理 位 置 
实体 完整 性 表示 方法 。 


3 百度 知道 中 地 理 位 置 实体 的 完整 性 表达 


通过 数据 处 理 提取 defectLoc， 再 通过 百度 知道 对 
defectLoc 补 全 的 问题 进行 检索 , 根据 反馈 结果 提取 特 
征 ， 并 对 defectLoc 的 所 属 区 域 进行 评分 , 构建 所 属 区 
域 的 特征 问 量 , 利用 规则 对 defectLoc 进行 完整 性 表 
示 , 使 得 完整 化 后 的 defectLoc 可 进行 统计 分 析 , 为 相 
关 部 门 提供 决策 支持 。 具 体 流程 如 图 1 所 示 。 

3.1 数据 处 理 

利用 文献 [11] 提 出 的 方法 进行 地 理 位 置 实体 识别 ， 
识别 出 地 理 位 置 实体 后 ,进一步 提取 defectLoc。 用 户 
在 发 布 一 条 投诉 微 博 时 , 除了 “@ 北 京 12345" 以 外 ， 有 
时 也 会 @ 相 关 区 域 , 如 表 1 中 的 微 博 1、 微 博 4 和 微 博 5。 
本 文 根 据 微 博 @ 相 关 区 域 的 特点 ， 对 所 有 投诉 微 博 @ 
的 内 容 进行 抽取 ， 当 @ 的 内 容 存 在 唯一 的 区 域 信息 
时 , 微 博 4 的 “@ 朝 阳 区 政府 热线 ”, 将 该 区 域 作为 此 
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原始 微 博 


地 理 位 置 


实体 识别 BLE 


对 defectLoc 


已 1 
提取 defectLoc 补 全 问题 


v“-------------------、 


Secon eee 


defectLoc 分 类 
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defectLoc, 将 其 过 滤 , 如 表 1 中 的 微 博 4; 不 存在 则 转 到 
步骤 G3); 

(3) 提取 等 处 理 的 defectLoc, 组 成 defectLoc 集合 。 
缺陷 地 理 位 置 实体 的 相关 问题 检索 
百度 知道 作为 最 流行 的 中 文 互动 问答 社区 之 一 ， 
2005 年 至 2015 年 10 年 间 ， 累计 解决 问题 超过 3.77 亿 。 
根据 文献 [20]， 百 度 知 道 创立 后 的 短 短 两 年 内 共产 生 
17 596 864 个 问题 , 已 解决 17 012 767 个 问题 , 问题 解 
决 率 高 达 96.7%。 同 时 ,百度 知 道 是 一 个 参与 率 和 互动 
性 极 强 的 知识 社区 , 每 天 有 超过 1 000 万 用 户 访问 , 每 
天 平均 产生 71 308 个 问题 , 223 907 个 回答 , 平均 每 一 
个 问题 吸引 3.14 个 用 户 参 与 互动 。 由 于 百度 知道 拥有 


3.2 


™ Pe 
> T 大 量 用 户 群 及 问答 数据 , 因此 非常 适合 解决 defectLoc 
《0 的 所 属 区 域 补 全 问题 。 
CO 图 1 缺陷 地 理 位 置 实 体 完 整 性 表示 框架 、 Perea 
N o is 本 文 主要 利用 开放 的 互动 问答 社区 一 一 百度 知 
本 。 defectLoc 的 所 属 区 域 进行 完整 性 表示 , 最 终 过 滤 一 部 É, 对 3.1 节 提取 的 defectLoc 生成 一 个 问题 ,该 问 
oO 分 defectLoc。 提 取 待 处 理 的 defectLoc 的 算法 如 下 : 题 为 “defectLoc 属于 哪个 区 ”， 例 如 , “中关村 属于 哪 
= (1) 分 析 已 识别 的 地 理 位 置 实体 , 判断 其 是 否 存 AK”, 通过 “zhidao baidu.com* 对 相关 问题 的 检索 
N 在 区 域 信息 , 存在 则 退出 , 如 表 1 中 的 微 博 1; 不 存在 功能 ， 实 现 对 defectLoc 所 属 区 域 的 搜索 , 将 反馈 结 
O 则 转 到 步骤 (2); 果 进 行 结构 化 数据 表示 。 如 表 1 微 博 2 中 的 “中 关 村 ?， 
AI (2) 定位 原 微 博 , 通过 NLPIR09 进 行 原 始 微 博 的 将 “中 关 村 属于 哪个 区 ”作为 检索 串 提 交 给 百度 知道 ， 
> 词语 切 分 , 并 将 所 有 @ 的 内 容 提 取出 来 组 成 @ 数 组 ， 反馈 10 个 相似 问题 的 QA 对 集合 ,并 对 反馈 的 结果 进 
Se 判断 数组 中 是 否 存在 唯一 区 域 信息 ,存在 则 补 全 该 ” 行 结构 化 表示 , 表 2 所 示 为 截取 的 前 6 个 QA 对 集合 。 
a 
= 表 2 “中 关 村 ”结构 化 数据 表示 (部 分 ) 
— 排序 问题 答案 是 否 推荐 H 时 间 
ET 答 : 海淀 区 得 看 你 租 什么 样 的 房子 了 , 还 有 具体 
= 1 ”中关村 属于 什么 区 的 ? 的 位 置 ! 一 般 单 间 的 话 , 条件 好 点 的 800-1200 Æ 1 0 2009-10-02 
Al, 床位 的 话 便 宜 些 200-400 EA! ……… 
2 中关村 在 北京 哪个 区 ? 答 : 在 海淀 区 。 0 6 2012-02-26 
3 ”中 关 村 是 北京 哪个 区 的 ? 答 : 海淀 区 。 海 淀 区 。 0 . ae 
4 ”北京 的 中 关 村 属于 哪个 区 答 : 中 关 村 属于 北京 市 海淀 区 管辖 0 0 2013-09-16 
5 北京 中 关 村 在 哪个 区 答 : 海淀 区 0 0 2015-04-11 
6 答 : 中 关 村 属于 北京 市 海淀 区 管辖 。 0 23 2007-06-28 


请 问 北京 市 中 关 村 是 属于 哪个 区 的 ? 


3.3 ”缺陷 地 理 位 置 实体 完整 性 特征 向 量 构建 

根据 3.2 节 的 结构 化 数据 进行 反馈 结果 的 特征 提 
取 , 并 对 每 个 QA 对 的 反馈 特征 计算 其 得 分 , 通过 所 
属 区 域 的 评分 模型 计算 出 各 个 区 域 的 总 得 分 , 构建 缺 
陷 地 理 位 置 实体 的 得 分 特征 向 量 。 

(1) 百度 知道 反馈 特征 的 提取 

通过 百度 知道 反馈 的 问答 内 容 , 本 文 总 结 三 类 
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特征 ， 其 中 包括 内 容 特 征 、 百 度 知道 特征 和 搜索 反馈 
特征 。 

DA BA iE 

该 特征 描述 百度 知道 反馈 的 问答 内 容 ， 要 确认 问答 内 
容 中 是 否 出 现 了 区 域 信 息 。 同 时 ， 如 果 反 馈 的 问题 与 提出 的 
问题 有 较 高 的 相似 度 ， 则 认为 该 问题 、 答 案 中 出 现 的 区 域 信 
息 更 重要 。 


1) 反 馈 的 问答 对 是 否 存 在 区 域 信息 。 
根据 反馈 的 问答 对 构建 一 个 bag = {QA QA;,…, QA}, 
目标 区 域 集合 为 Area={areal, areaz，…, areal6}， 其 中 QAi 为 
百度 知道 反馈 的 第 i 个 问答 对 , 每 个 QA 对 应 一 个 Area 集 
合 。 作 为 判断 问题 ,本 文 用 十 位 、 个 位 的 1 分 别 表 示 问 题 、 
答案 中 是 否 存 在 area; 的 区 域 ,如 公式 (1) 和 公式 (2) 所 示 : 
QARR F Sarea; 


| 
area; = (1) 


0 QA 答案 中 不 合 area; 


问题 中 含 areat 
om QA 问题 中 含 areai 


0 ”QA 问题 中 不 仿 area; 


针对 不 同 区 域 , 每 个 QA 构建 一 个 集合 包含 全 部 区 域 的 
16 个 area， 由 于 QA 问题 中 出 现 的 区 域 与 答案 中 出 现 的 区 域 
重要 性 不 同 ,答案 是 对 区 域 缺 失 问 题 的 解答 ， 因此， 答案 中 
的 区 域 信息 更 重要 。 区 域 的 得 分 ScoreA 如 公式 (3) 所 示 : 
ScoreA (QA ;,area;) = (1 -À)x (area; /10)+Ax(areaj%10) (3) 


其 中 ,i 为 第 i 个 区 域 ,j 为 百度 知道 反馈 的 第 j 个 问答 对 ， 
入 为 答案 中 出 现 区 域 信 息 的 权重 。 

2) 问 题 相似 度 集合 

这 个 特征 用 来 衡量 提出 的 问题 tq 与 QA 集合 中 所 有 问 
题 的 相似 度 ， 记 为 Simq, 则 Simq= fsimqi simq2，…, simq10}， 
其 中 , simq, 至 simqy 4 tq 5 QA 集合 中 每 个 问题 的 相似 度 。 
由 于 余弦 相似 度 的 结果 只 在 [0, 1] 之 间 , 且 需要 计算 相似 度 
的 两 个 问题 字数 较 少 , 通常 在 10 个 字 左右 ， 因 此 本 文采 用 
以 字 为 向 量 ， 以 余弦 相似 度 作 为 问题 相似 度 的 计算 方法 。 假 
设 A、B 是 两 个 n 维 向 量 , A=[Ai, Ad, ++, An], B=[Bi, By, …， 
Bil, HP Ai 与 Bi 表示 同一 字符 分 别 在 A、B 中 出 现 的 频 度 ， 
n 为 A、B 中 所 有 不 重复 的 单个 字符 , 则 A 和 B 的 余弦 相似 
度 可 以 表示 为 : 

(Ai xB) 


= (4) 


is (Ai)? [der 
i=l 


i=l 


simq; = 


@ 百 度 知道 特征 

百度 知道 特征 是 指 百度 知道 本 身 的 一 些 属性 , 反映 百 
度 知道 反馈 的 QA 对 的 可 信 性 ， 以 下 特征 较 好 地 描述 了 QA 
对 中 答案 的 准确 性 。 

1) 是 否 为 推荐 答案 

推荐 答案 是 由 百度 知道 平台 上 高 级 知道 网 友 推荐 的 
质量 较 好 的 回答 。 因 此 ,推荐 答案 通常 具有 较 高 的 可 信 度 ， 
并 比 其 他 答案 更 加 重要 ， 用 表示 推荐 答案 的 权重 。 

. [wp A 是 推荐 答案 
Pe -fo A 不 是 推荐 答案 
2) 先 次数 
百度 知道 中 ， 其 他 用 户 的 “赞同 ”可 以 通过 坚 拇指 的 行为 


ol 
Nn 


{ 
\ 
D 
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对 回答 的 准确 性 进行 肯定 ,一般 赞 次 数 越 多 的 答案 ,其 质量 
也 越 高 。 本 文 对 赞 数 的 计算 方式 为 : 
Scorel(QA;, Agree) = 0 x count(QA;, Agree) (6) 
其 中 ，0 为 每 个 赞 的 权 值 ，count(QA;,Agree) 为 第 i 个 
QA 中 的 赞 数 。 
3) 回 答 时 间 
回答 时 间 来 自 该 QA 对 中 回答 问题 用 户 发 表 回 答 的 时 
间 ， 由 于 地 理 位 置 的 区 域 归 属 问题 会 随时 间 的 改变 而 改变 ， 
通常 越 接近 当前 时 间 的 回答 ,其 准确 性 越 高 ， 因 此 本 文 对 回 
答 时 间 做 了 限制 ， 单 位 为 年 。 
time; = Now — AnsTime; (7) 
1 OS<time; <2 
ScoreT(time;)=50.5 3< time; <5 (8) 
0 time; > 5 
其 中 , i 为 第 i 个 QA, Now 为 现在 的 时 间 , AnsTime 
为 回答 问题 的 时 间 。 
图 搜索 反馈 特征 
通过 搜索 反馈 结果 的 顺序 ,利用 搜索 引擎 伪 反馈 技术 乓 计 
算 权 值 。 由 于 百度 知道 的 反馈 结果 中 排名 越 靠 前 其 与 
defectLoc 的 所 属 区 域 信息 越 相 关 ， 本文 将 反馈 结果 的 前 三 
个 查询 结果 看 成 权重 相同 的 ， 后 面 结果 随 着 排名 的 增加 权重 
也 逐渐 降低 ， 具 体 分 布 如 公式 (9) 所 示 , 其 中 i 为 第 i 个 QA 对 。 
1 1<iS3 
pee <a 3<i <10 ©) 
(2) defectLoc 所 属 区 域 的 评分 模型 
根据 是 否 存在 区 域 信息 、 问 题 相似 度 、 是 否 推荐 、 
赞 次 数 、 回 答 时 间 和 反馈 排名 的 结果 , 构建 出 每 j 条 
QA 的 defectLoc 所 属 区 域 的 评分 模型 ， 其 中 是 否 存在 
区 域 信息 和 问题 相似 度 作为 其 基数 得 分 , 再 根据 不 同 
特征 的 重要 性 , 每 增加 一 个 特征 需要 对 已 计算 的 得 分 
进行 修改 , 如果 该 特征 值 为 0， 总 得 分 保持 不 变 , 反 
之 ,特征 值 越 大 , 总 得 分 增加 的 越 多 ,因此 , 本文 计算 
第 j 条 QA 所 属于 区 域 的 得 分 公式 如 下 所 示 : 
RowScore(QAj,areai) = ScoreA (QA ,areai)xsimqj x 
(1+ Rec(j)) x (1+ ScoreI(QA ;, Agree)) x (10) 
(1+ScoreT(time;)) x (1+ Pos(j)) 
综 上 所 述 , 对 每 条 QA 在 区 域 的 得 分 RowScore 进 
行 累加 ,从 而 得 到 缺陷 地 理 位 置 实体 defectLoc 属于 区 
域 的 总 得 分 Score(areai | defectLoc) 。 计 算 公 式 如 下 : 


10 
Score(area; | defectLoc) = > RowScore(QA j, area; ) (11) 
j=l 
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根据 defectLoc 所 有 区 域 area 的 分 数值 Score, 构 
建 defectLoc 的 得 分 特征 向 量 {Score(area, | defectLoc), 
Score(area, | defectLoc), ---, Score(area,, | defectLoc)} 。 
3.4 缺陷 地 理 位 置 实体 完整 性 表示 

根据 构建 出 的 defectLoc 的 得 分 特征 向 量 , 将 
defectLoc 定义 为 以 下 三 类 地 理 位 置 实体 ， 即 明确 地 理 
位 置 实体 、 歧 义 地理 位 置 实体 和 零 地 理 位 置 实体 。 运 
用 相应 的 规则 确认 一 个 所 属 区 域 。 

定义 1 明确 地 理 位 置 实体 : 检索 结果 中 出 现 且 
只 出 现 一 个 区 域 , 或 者 Max(P(areaildefectLoc) > yH 
defectLoc， 记 为 clearLoc。 其 中 概率 计算 公式 如 下 : 
Score(area, | defectLoc) 


P(area; | defectLoc) = TA 
> Score(area; | defectLoc) 


定义 2 ”歧义 地 理 位 置 实体 : 检索 结果 中 出 现 了 
多 个 区 域 日 Max(P(area;lLocation)) 二 y 的 defectLoc, 记 
为 ambiguityLoc。 

定义 3 零 地 理 位 置 实 体 : 检索 结果 中 未 出 现 区 
域 信息 的 defectLoc， 记 为 zeroLoc。 

通过 对 数据 的 观察 分 析 发 现 , 缺陷 地 理 位 置 实体 
的 Score(area; | defectLoc) 值 及 检索 结果 中 出 现 的 区 域 
的 个 数 对 缺陷 地 理 位 置 实体 的 完整 化 起 决定 性 作用 。 
本 文 利用 以 下 规则 对 不 同类 别 的 缺陷 地 理 位 置 实体 进 


(12) 
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行 区 域 完 整 性 表示 。 

规则 1 对 于 clearLoc, 存在 两 种 情况 : 如 果 检 索 
结果 中 只 含有 一 个 区 域 信息 ,， 则 此 区 域 信息 为 
defectLoc 的 区 域 信息 。 如 图 2 中 的 区 域 1、4、5、7, 在 
返回 的 10 条 检索 结果 中 只 有 一 个 区 域 得 分 , 也 就 是 说 
在 defectLoc 构建 的 特征 向 量 中 ， 有 且 只 有 一 个 
Score(area, | defectLoc) 的 分 数值 大 于 0, 旦 其 他 分 数 
值 都 为 0 时 ，defectLoc 的 区 域 信息 为 area; 如 果 存 在 
Max(P(area;\defectLoc))>y, 此 area; 为 defectLoc 的 区 
域 信息 。 如 图 2 中 的 区 域 6, 虽然 有 多 个 区 域 得 分 , 根 
据 定义 1， 即 可 确定 所 属 区 域 。 

规则 2 ”对 于 ambiguityLoc, 利用 countLoc 对 
defectLoc 进行 消 歧 。countLoc 为 统计 每 个 区 域 的 个 数 ， 
一 条 QA 中 出 现 多 个 相同 的 区 域 信息 , 按 一 次 计算 , 最 
终 得 到 Max(countLoclareai)， 则 defectLoc 的 区 域 信息 为 
areai。 如 果 Max(countLoclarea;) 存 在 2 个 或 2 个 以 上 的 
区 域 , 本 文 取 第 一 个 Max(countLoclarea;) 的 区 域 信息 。 
如 图 3 中 的 区 域 2, “海淀 ”的 countLoc 为 最 大 值 7, 最 终 
完整 性 规范 化 表示 的 结果 为 “海淀 区 五 路 居 ”。 

规则 3 ”对 于 zeroLoc, 无 法 进行 区 域 补 全 操作 。 
由 于 此 类 地 理 位 置 实体 不 一 定 属于 北京 地 区 , 例如 
2 中 的 区 域 3。 


东城 西城 朝阳 丰台 石景山 海淀 门头沟 房山 AX 昌平 IRM 通州 延庆 怀柔 密云 平谷 
1 万 泉 庄 o 0 ol o 0 8.52 o 0 6 ol 0 ol ol ol o 0 
2 五 路 居 0.61 O211 0 0 3.82 0 008 0 008 0 0 0 0 
3 上 虞 区 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
4 东升 科技 园 0 0 0 0 0 2.37 0 0 0 0 0 0 0 0 0 0 
5 从 王 坟 0 011.6 0 0 0 0 0 0 0 0 0 0 0 0 0 
6 前 门 1922.4 0 0 0 0 o 0 o 0 0 ol ol ol o 0 
7 中 关 村 0 0 0 0 0 21.9 o 0 o ol o) ol go ol o 0 

图 2 defectLoc 所 有 区 域 的 得 分 特征 向 量 

东城 西城 朝阳 丰台 石景山 海淀 门头沟 房山 AK BF IRM 通州 延庆 怀柔 密云 平谷 
1 万 泉 庄 0 0 0 0 0 9 0 0 0 0 0 0 0 0 0 0 
2 五 路 居 1 0 2 0 0 7 o o 1 o) ol 1 ol ol ol o 
3 上 虞 区 o oOo oO o 0 0 o o o 0 ol ol ol ol ol o 
4 东升 科技 园 0 0 0 0 0 2 o o o 0 ol 6 ol ol ol o 
SAER 0 0 8 0 0 0 o 0 ol o) ol ol ol ol ol o 
6 前 门 6 8 0 0 0 0 o 0 ol 0 ol ol ol ol ol o 
7 中关村 0 0 0 0 0 10 o 0 ol 0 ol ol ol ol ol o 


图 3 defectLoc 所 有 区 域 的 countLoc 


对 每 个 缺陷 地 理 位 置 实体 通过 其 所 有 区 域 得 分 将 
每 个 缺陷 地 理 位 置 实体 分 类 ,再 通过 上 述 规则 对 缺陷 


现代 图 书 情报 技术 


地 理 位 置 实体 进行 补 全 , 最终 规范 化 为 完整 地 理 位 置 
实体 , 如 表 3 所 示 。 
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表 3 对 图 2 中 的 缺陷 地 理 位 置 实体 完整 性 表示 


缺陷 地 理 位 置 实体 地 理 位 置 实体 类 别 ”完整 地 理 位 置 实体 
万 泉 庄 clearLoc WE VE KIT RJE 
五 路 居 ambiguityLoc 海淀 区 五 路 居 
LEK zeroLoc LEK 
东升 科技 园 clearLoc 海淀 区 东升 科技 园 
NER clearLoc 朝阳 区 八 王 坟 
前 门 clearLoc 西城 区 前 门 
中 关 村 clearLoc 海淀 区 中 关 村 


4 实验 结果 与 分 析 


4.1 实验 准备 

实验 语 料 来 源 于 新 浪 微 博 ， 以 “@ 北 京 12345724 
关键 词 , 通过 新 浪 微 博 的 搜索 页 面 “s.weibo.com” 进 行 
检索 , 并 编写 定向 疏 虫 程序 自动 采集 相关 微 博 。 由 于 
投诉 微 博 的 地 理 位 置 集中 在 北京 地 区 ， 因 此, 地理 位 
置 实体 的 所 属 区 域 包括 14 个 区 和 2 个 县 ， 即 东城 区 、 
西城 区 、 朝 阳 区 、 丰 台 区 、 石 景山 区 、 海 淀 区 、 门 头 
沟 区 、 房 山区 、 大 兴 区 、 昌 平 区 、 顺 义 区 、 通 州 区 、 
怀柔 区 、 平 谷 区 、 密 云 县 、 延 庆 县 。 

以 1 480 条 新 浪 城市 投诉 微 博 作为 实验 语 料 ， 根 
据 文献 [11] 的 方法 共 提 取 1 482 个 地 理 位 置 实体 , 并 由 
专业 人 员 对 其 进行 校对 。 其 中 有 840 个 地 名 包含 明确 
的 区 域 信息 ,可 以 为 后 续 统 计 提 供 帮 助 ， 有 642 “Mik 
陷 地 理 位 置 实体 ， 占 整个 语 料 的 43.32%。 经 过 前 期 的 
数据 处 理 , 根据 @ 相 关 区 域 信息 的 微 博 特 点 , 在 642 
个 缺陷 地 理 位 置 实体 中 , 可 以 完整 性 表示 的 缺陷 地 理 
位 置 实体 有 218 个 , 余下 424 个 缺陷 地 理 位 置 实体 无 
法 进行 完整 性 表示 。 但 在 这 424 个 缺陷 地 理 位 置 实体 
中 有 90 个 重复 出 现 过 , 例如 “国贸 ”“ 双 井 ” 等 常见 地 
理 位 置 实体 ,去除 这 些 重复 项 , 总 共有 334 个 缺陷 地 
理 位 置 实体 需要 进行 完整 性 表示 。 

通过 上 述 数据 可 以 看 出 ,地理 位 置 实体 的 完整 性 
研究 是 有 必要 的 , 本 文 主要 对 334 个 缺陷 地 理 位 置 实 
体 进 行 完整 性 研究 。 经 过 反复 实验 , 通常 答案 中 出 现 
区 域 信息 比 问题 中 出 现 区 域 信息 对 所 属 区 域 的 贡献 
K, 推荐 答案 对 问题 的 解释 更 加 权威 ， 而 百度 知道 特 
征 中 的 赞 次 数 对 所 属 区 域 的 贡献 较 小 。 针 对 缺陷 地 理 
位 置 实体 ,如 果 存 在 某 个 区 域 的 得 分 超过 或 等 于 所 有 
区 域 得 分 之 和 的 一 半 时 ， 可 以 确定 其 为 明确 地 理 位 置 
实体 , 因此 ,本 文 取 和 =0.7, p=5, 0=0.1, y=0.5。 
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4.2 评价 指标 

使 用 精确 率 (Accuracy) 对 实验 结果 进行 评价 ， 即 
正确 完整 化 的 缺陷 地 理 位 置 实体 数量 占 全 部 缺陷 地 理 
位 置 实体 的 比例 , 其 计算 公式 如 下 : 


Accuracy = ight 


x100% (13) 
total 


其 中 , right 表示 正确 完整 化 的 缺陷 地 理 位置 实 
RSL, total 表示 待 完 整 化 的 所 有 缺陷 地 理 位 置 实 
体 个 数 。 

4.3 ”实验 结果 与 分 析 
通过 数据 处 理 阶 段 需要 对 334 个 缺陷 地 理 位 置 实 
体 进 行 完 整 性 表示 ,实验 分 以 下 三 个 步 又 进行 。 

(1) 检索 问题 ， 结 构 化 反馈 结果 。 通 过 数据 处 理 ， 
需要 对 334 个 defectLoc 进行 问题 检索 , 将 问题 检索 的 
结果 按照 表 2 的 结构 进行 结构 化 处 理 , 最 终 形成 334 
个 反馈 数据 表 。 

(2) 特征 提取 , 计算 所 有 区 域 的 得 分 , 构建 
defectLoc 的 得 分 特征 向 量 。 采 用 3.3 节 的 特征 值 计算 
方法 及 所 属 区 域 的 评分 模型 ， 通 过 反馈 数据 表 ， 计 算 
得 到 每 个 defectLoc 的 各 个 区 域 得 分 , 并 构建 出 得 分 特 
征 问 量 。 

(3) 根据 defectLoc 的 得 分 特征 向 量 ,， 对 所 有 
defectLoc 进行 分 类 , 通过 规则 进行 完整 性 表示 。 根 据 
3.4 节 的 定义 , 将 334 个 defectLoc 分 类 表示 , 其 中 有 290 
个 明确 地 理 位 置 实体 ,35 个 歧义 地 理 位 置 实体 ,9 个 零 
地 理 位 置 实体 ， 如 图 4 所 示 。clearLoc 约 占 全 部 
defectLoc 的 87%, 说 明 城 市 投诉 微 博 中 大 多 数 的 
defectLoc 都 是 clearLoc; 虽然 无 法 完整 化 的 zeroLoc 只 
约 占 3%, 但 仍 需要 找到 其 他 方法 对 其 进行 完整 性 表示 。 


E clearLoc 
MambiguityLoc 


E zeroLoc 


图 4 defectLoc 类 别 占 比 


利用 3.4 节 中 的 规则 对 defectLoc 进行 完整 化 表示 ， 
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从 表 4 的 实验 结果 可 以 看 出 , 本文 方法 完整 化 
clearLoc 的 精确 率 达 到 96.21%， 完 整 化 ambiguityLoc 
的 精确 率 达 到 85.71%。clearLoc 的 完整 化 是 通过 3.4 
节 的 规则 1， 由 于 百度 知道 检索 得 到 的 是 唯一 区 域 或 
Max(P(areaildefectLoc)) 三 Y， 基 本 不 会 出 现 歧义 的 区 域 
言 息 ， 所 以 精确 率 最 高 。 而 ambiguityLoc 的 完整 化 精 
确 率 略 低 于 clearLoc， 主 要 是 存在 多 个 歧义 区 域 , 并 
且 得 分 较 接 近 , 因此 在 多 个 区 域 销 歧 过 程 中 ， 有 时 会 
出 现 错误 。 本 文 方法 可 以 对 多 数 defectLoc 实现 完整 性 
表示 , 覆盖 率 达 到 97.31%。 对 于 少数 未 返回 检索 结果 
的 zeroLoc, 本 文 方法 并 没有 效果 。 综 上 , 本 文 方法 适 
用 于 defectLoc 的 完整 性 表示 。 
表 4 缺陷 地 理 位 置 实体 中 各 类 型 分 布 表 及 正确 率 


类 别 个 数 ”错误 个 数 完整 化 精确 率 综合 精确 率 
clearLoc 290 11 96.21% 
ambiguityLoc 35 5 85.71% 92.51% 
zeroLoc 9 9 0% 


如 表 4 所 示 ,， 其 中 clearLoc 中 有 11 个 完整 化 错误 ， 
ambiguityLoc 有 5 个 完整 化 错误 , 由 于 zeroLoc 中 的 缺 
陷 地 理 位 置 实体 一 部 分 存在 所 属 区 域 ， 所 以 将 
zeroLoc 均 认 为 是 完整 化 错误 。 通 过 对 错误 的 分 析 , 本 
文 方法 还 存在 以 下 问题 : 

(1) 较 生 个 的 defectLoc 通过 百度 知道 检索 出 的 结 
果 不 相 关 。 如 “ 北 七 佳 园 ”， 存 在 区 域 信息 的 问题 有 “上 
地 佳 园 属于 哪个 区 ?”“ 海 淀 区 项 慧 佳 园 属 于 什么 街 
道 ?”,， 虽然 这 两 个 问题 包含 区 域 信息 , 但 与 “ 北 七 佳 
园 ” 并 无 关系 。 

(2) 对 于 zeroLoc 来 说 , 主要 有 两 种 情况 : 该 
zeroLoc 并 不 属于 北京 , 由 于 地 理 位 置 实体 识别 阶段 
并 不 会 区 分 是 否 属于 北京 , 例如,“ 上 在 区 ”并 不 是 北 
京 的 某 个 地 理 位 置 ; 该 zeroLoc 属于 北京 ,由 于 
defectLoc 较 长 ， 百 度 知道 的 相关 问题 较 少 , 例如 ,“ 嘉 
园 二 里 南 门 门 口 ?属于 北京 , 但 反馈 的 检索 结果 并 无 
区 域 信息 。 


5 结 语 


为 了 能 够 对 地 理 位 置 实体 进行 统计 与 分 析 , 并 为 
有 关 部 门 提供 数据 支撑 ,本 文 提 出 基于 互动 问答 社区 
一 一 百度 知道 的 地 理 位 置 实 体 的 完整 性 表达 方法 , 通 
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过 向 百度 知道 提问 的 方式 对 缺陷 地 理 位 置 实 体 所 属 区 
域 进行 检索 , 根据 检索 结果 提取 特征 , 计算 各 个 区 域 
的 得 分 , 并 构建 所 属 区 域 的 得 分 特征 向 量 。 在 此 基础 
上 , 利用 完整 化 规则 对 缺陷 地 理 位 置 实体 进行 区 域 补 
全 , 最 终 实 现 地 理 位 置 实体 完整 性 表示 。 实 验 结果 表 
明 , 本 文 方法 使 缺陷 地 理 位 置 实体 完整 化 具有 较 高 的 
精确 率 ， 同时 验证 了 百度 知道 反馈 特征 与 完整 化 规则 
对 于 缺陷 地 理 位 置 实体 完整 性 表示 的 有 效 性 。 由 于 百 
度 知 道 是 多 用 户 参 与 的 互动 问答 社区 , 下 一 步 的 工作 
可 以 对 零 地 理 位 置 实体 进行 分 析 , 利用 搜索 引擎 、 地 
图 等 多 种 资源 相 结 合 的 方式 完整 化 该 地 理 位 置 实 体 。 
还 可 以 将 回答 者 作为 特征 进行 提取 , 并 综合 多 方面 特 
征 确 定 完 整 化 的 规则 。 
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Retrieving Geographic Information for Micro-blog’s City Complaints 


Sun He*? Li Shuqin? Lv Xueqiang'* Liu Kehui** 
‘(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information 
Science and Technology, Beijing 100101, China) 
*(College of Computer, Beijing Information Science and Technology University, Beijing 100101, China) 
*(School of Management and Economics Beijing Institute of Technology, Beijing 10081, China) 
‘(Beijing Research Center of Urban Systems Engineering, Beijing 100035, China) 


Abstract: [Objective] This study aims to utilize the knowledge sharing and constantly updating advantages of the 
Question Answering Community - Baidu Zhidao, which helps us reduce the cost of maintaining large geographical 
relationship resource, and find the complete location information. [Methods] First, we changed the incomplete location 
information to the approximate area names retrieved from Baidu Zhidao. Second, extracted each area’s features and 
calculated scores of related geographic entities. Finally, we constructed the feature vectors for the areas with those 
geographic entities, which help us identify the geographic locations of these posts. [Results] The proposed method 
could retrieve accurate geographic information from 92.51% of City Complaints from the Micro-blog platform. 
[Limitations] The proposed method could not analyze posts without any geographic location information. 
[Conclusions] Our study found an effective and feasible way to locate the missing geographic information. 

Keywords: City complaints of Micro-blog Defect location entity Question Answering Community(QAC) 
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